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요 약 


병렬 스 케 즐 링 의 목 적 은 다 중 프로세서 시스템 환 경 에서 병 렬 성 을 가진 웅 옹 프 로 그 램 에 대해 최 소 의 동기화 
오 버 혜 드 와 부 하 균 등 (080 608138066) 을 달 성 하도록 스 케 즐 링 을 수 행 하는데 있다. 프 로 세 서 들이 병렬 반복 
(6『0400) 을 실 행 하 기 위해서는 메 모 리 로부터 반 복 들 에 대한 010[ 를 계 산 하고 할 당 받게 된다. 이때, 전역 
메 모 리 의 상호 배 타 적 인 빈번한 접 근 으로 많은 스 케 즐 렁 오 버 헤 드 및 병 목 현 상이 발 생 된 다. 또한, 프 로 세 서 에 
게 할 당 된 0140 내 병렬 반 복 들의 분 포 가 서로 상이한 경우, 각 4140 의 실 행 시 간 이 서로 달라 부 하 불 균 동의 
원 인 이 되어 결 과 적 으로 전체 스 케 즐 링 성 능 에 나쁜 영 향 을 준다. 따라서, 최 소 의 스 케 즐 링 오 버 헤 드 와 부 하 균 
동 올 달 성 하기 위해 본 논 문 에서는 기 존 의 방 법 들 에서 문 제 점 들 을 도 출 하고, 자 료 의 국 부 성과 프로세서 동족 
성 (310016>) 을 고려한 병렬 루프 스 케 즐 링 알 고 리 즘 올 제 안 한 다. 
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1. 서 론 


다 중 프 로 세 서 시 스 템 (10414000065507 8515660) 환 
경 에서 병렬 스 케 줄 링 (023131161 5016041108) 은 프 로 세 
서 들을 독 립 적 으로 충분히 활 용 하 여 주어진 웅 용 프 
로 그 램 을 얼마나 효과적으로 실 행 하 느 나의 문 제 이 
본 연 구 는 정 보 통 신 진 흥 원 의 '99 년 대학 기 초 연구 지 원 비 에 
의한 것임. 

” 정회원, 극 동 정 보 대학 전 산 정 보 처리과 조교 
"” 정회원, 순 천 향 대 학교 정 보 기 술 공학부 교수 


스 
ㅠㅜ 


며 , 효과적인 실 행 올 위해 웅 용 프 로 그 램 이 최 대 의 
병 렬 성 올 가 져 아 한다. 응용 프 로 그 램 에 서 병 렬 성의 
가장 큰 근 원 은 루 프 가 될 수 있으며, 루 프 에 대한 
스 케 즐 렁 방 법 들 은 수 년 동안 계속 연 구 되 어 왔다 
[2.3.7.8,10.12]. 루 프 에서 모든 반 복 들 이 처리 순 서 에 
무 관 하 게 동시에 독 립 적 으로 실행될 때, 이를 병렬 
루 프 라 하고, 병렬 루 프 의 모든 반 복 들 에 대한 분포 
(0160104000: /』,0) 가 균 일 하 여 실행 시 간 이 비슷 
한 경 우 에는 씨 개의 서로 독립된 반 복 들 을 컴파일 시 
간에 정 적 으로 프 로 세 서 에 게 균 등 하게 할 당 하 는 것 
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이 효 과 적 일 수 있다. 이런 할당 정 책 을 정적 스 케 즐 
렁 이라 한다. 그러나 루 프 의 6005 부 분 에 조 건 문 이 
포 함 되 어 있거나 중 첩 된 루프 인 덱 스 들의 실 행 시간 
이 서로 불 규 칙 적 인 경 우 에 는 반 복 들 의 상이한 실행 
시간 때문에 부 하 불 균 등 (1080 1710813006) 이 발 생 되 
어 정적 스 케 즐 링 은 효과적인 스 케 즐 링 을 수 행 할 수 
없다. 따라서, 불 규 칙 적 인 반 복 들 을 효과적으로 실행 
하기 위해서는 수행 시 간 에 반 복 들이 프 로 세 서 에 게 
할 당 되어야 한다. 이런 할당 정 책 을 동적 스 케 즐 렁 이 
라 하며, 약 간 의 스 케 즐 링 오 버 헤 드가 수 반 된다. 규 
칙 적 인 반 복 들 과 불 규 칙 적 인 반 복 들 에 대한 스 케 즐 
렁 을 효과적으로 수 행 하 기 위해서는 동적 스 케 즐 링 
과 정적 스 케 즐 렁 이 모두 고 려 되 는 스 케 즐 링 정 책 이 
필 요 하 며 , 이는 병렬 타 스 크 의 최소 종료 시 간 (0 ㅁ 10- 
10410 10158 1206) 을 달 성 하기 위한 필수적인 요건 
이다. 

낮은 스 케 즐 링 오 버 혜 드 와 부 하 균 등 을 달 성 하 는 
최 적 의 스 케 즐 링 을 위해 고 려 되 어 야 할 몇가지 요소 
들을 살펴보면 다 음 과 같다. 첫째, 각 반 복 들 의 분포 
를 고려해야 한다. 그러나 각 반 복 들 의 분 포 가 실행 
시 간 에 조차 알려지지 않기 때문에 기존 대부분 스케 
즐 링 알 고 리 즘 에서는 각 반 복 들 을 서로 임 의 의 독립 
된 변 수 (7300001 100606006006 13713010) 로 취 급 하 여 
처 리 하 고 있 다 [277.8,12]. 둘째, 데이터 국 부 성 (0322 
100811[/) 을 고려해야 한다. 이는 서로 인접한 반 복 들 
이 가장 근사한 분 포 를 가 진 다 는 확 률 적 의 미 를 반영 
하는 것 이 다 [9]. 셋째, 각 타 스 크 를 프 로 세 서 에 게 할 
당할 때, 소 요 되 는 전 송 시 간 이 고 려 되어야 한다. 이 
는 네 트 워 크 의 구성 형 태 와 관 련 이 있으며, 분 산 스시 
템 에 서 반 영 될 요 소 이다. 넷째, 각 프 로 세 서 들의 성 
능이 고 려 되 어야 하며, 이종 시 스 템 ([16660086060458 
95766600) 에 서 특히, 반 영 될 요 소 라 할 수 있다. 

본 논 문 에서는 프로그램 병 렬 성의 근 원 이 되는 루 
프 에 관 심 이 있으며, 특히, 병렬 반 복 들의 실행 시간 
이 매우 불 규 칙 적 인 루 프 (206841& 1000) 에 초 점 올 
둔다. 불 규 칙 적 인 루 프 는 크 기 나 타 스 크 의 분 포 가 입 
력 데 이 터 에 의 존 하 는 병렬 수 행 을 내 포 한 다. 이런 
프 로 그 램 들을 효과적으로 수 행 하 기 위해 본 논 문 에 
서는 컴파일 시 간 에 정 적 으로 반 복 들 에 대한 자료 
국 부 성 을 고 려 하 여 제 어 키 (60 ㅁ ㅁ 01-【6) 에 의해 실 
행 시 간 분 포 가 비슷한 여러 개의 그 룹 으로 분 해 한 다. 
또한, 분 해 된 그 룹 들 은 프로세서 동 족 성 을 고 려 하 여 


각 프 로 세 서 의 지역 메 모 리 에 정 적 으로 할 당 하 고 독 
럽 적 으 로 수 행 함 으로써 스 케 즐 링 오 버 헤 드 와 부하 
균등 사 이 의 ㅠ ㅁ 30601 관 계 를 최 소 화 하였다. 본 논문 
의 구 성 은 2 장 에서 기존 스 케 즐 링 알 고 리 즘 에 대해 
살 펴 보 고 문 제 점 들 을 분 석 하며, 3 장 에서는 본 논문 
에서 제 안 된 스 케 즐 링 알 고 리 즘 을 제 시 하고, 4 장 에 
서는 기존 알 고 리 즘 들 과 제 안 된 알 고 리 즘 에 대한 성 
능 을 비교 평 가 한 다. 마 지 막 으로 5 장 에서는 결론 및 
향후 연구 방 향 을 제 안 한 다. 


2. 관련 연구 


병렬 스 케 즐 링 방 법 은 크게 전역 프로그램 정 보 인 
매 개 변 수 를 토대로 컴파일 시 간 에 병렬 타 스 크 들을 
프 로 세 서 에게 균 등 하게 할 당 하는 정적 스 케 즐 링 과 
실 행 시 간 에 부 하 불 균 등 울 고 려 하 여 반 복 들 을 프로 
세 서 에 게 할 당 하는 동적 스 케 즐 링 으로 구 분 된다. 정 
적 스 케 즐 링 은 컴파일 시 간 에 반 복 들 이 프 로 세 서 에 
게 할 당 되기 때문에 낮은 스 케 즐 링 오 버 헤 드 를 달성 
할 수 있으나, 각 타 스 크 들의 실 행 시 간 이 서로 상이 
한 경 우 예 는 부 하 불 균 동이 발 생 된 다. 동적 스 케 즐 링 
은 각 타 스 크 들의 예측할 수 없는 실 행 시 간 에 직 면 하 
여 부 하 균 등 을 달 성 하기 위해 시 도 되 었으며, 어느 정 
도의 동기화 오 버 헤 드 를 수 반 한다. 따라서, 스 케 즐 링 
에서는 서로 독립된 각 반 복 들 에 대해 최 소 의 동기화 
오 버 혜 드 와 부 하 균 등 을 달 성 하 는데 초 점 을 두며, 그 
에 따른 일반적인 루프 구 조 와 기존 스 케 즐 링 방 법 들 
을 살펴보면 다 음 과 같다. 


루프 구 조 는 모든 반 복 들 간 에 종 속 성 이 없는 경우 
00041.1) 와 서로 다른 반 복 간에 종 속 성 이 발 생 하는 
경 우 (004^673) 가 존 재 한 다 [1315]. 1104Ｌ1Ｌ 형 태 의 
루 프 에 서는 서로 다른 반 복 간에 종속 관 계 가 존 재 하 
지 않기 때문에 한 반 복 내 의 모든 데 이 터 를 프로세서 
간의 상호 작 용 없이 병렬 처 리 할 수 있 다 [14]. 즉 , 부 
분 적 으 로 프 로 세 서 간의 정보 교 환 이 필 요 하 게 된다. 
00407 루 프 에 서는 한 반 복 에서 가져온 테 이 터 가 
다른 반 복 에서 수 정 되 거나 한 반 복 에서 생 성 된 결과 
가 나중에 다른 반 복 에서 사 용 되 는 종속 관 계 가 존재 
하기 때문에 완전한 병렬 처 리 를 수 행 할 수 없다. 이 
러한 프 로 세 서 간의 상호 정보 교 환 을 동기화 기 법 이 
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라 하며, 프 로 그 램 의 올바른 수 행 을 위해서 반드시 
유 지 되어야 한다. 다 음 은 00411. 과 200 ㅅ 0 그리고 
10061114&Ｌ 문 이 포 함 된 일반적인 루프 구 조 를 나타 
낸다. 


(1) 1 원 중첩 루 프 (006-\84 씨 65660 Ｌ ㄴ 000) 

같은 중첩 레 벨 에 하 나 의 루 프 만이 중 첩 된 루프 구 
조 로 서 , 그림 1 (3) 는 하 나 의 004ＬＬ 이 중첩 된 1 원 
중첩 루 프 를 나타낸 것이다. 그 림 1 (3) 에 서 중 첩 된 
10041Ｌ 의 인 덱 스 들 은 합 체 될 수 있으며, 그 림 1 (6) 
는 합 체 된 루 프 를 나타낸 것이다. 합 체 된 루 프 에서 
서로 다른 중 첩 된 레 벨 에 표 현 된 코드 분 할 (6006 
568101600) 들 의 실행 순 서 를 유 지 하 기 위해서는 그림 
1 (06) 의 6; 은 합 체 된 루 프 의 조 건 에 따라 실 행 되어야 
하며, 컴 파 일 러 는 5, 의 첫번째 문장 이 전 에 조 건 문 올 
삽 입 해 야 한다. 


10011. 1 )=1, 씨 
51 
1001.11. 2 =1, 쥐 
읍 2 
2 표 체 00214 
1 표 떼 1001.41. 
(2) 


[0 
0041.11. 1 1=1,34? 
때 (6241 .68. 0 77118 찌 
으 1 
[11441 
먼 빈 (일 
읍 2 
1 40041 
06) 


그림 1. 1 원 중첩 루 프 와 합체 


(2) 다원 중첩 루 프 (4414-\34 찌 69660 1.000) 
같은 중 첩 된 례 벨 에 둘 이상의 루 프 가 중 첩 된 루 
프 구 조 로서 그림 2 (8) 는 두 개의 루 프 가 같은 중첩 
레 벨 에 존 재 하 는 2 원 중첩 루 프 (2-\831” 0 ㅁ 65660 1000) 
를 나타낸 것이다. 그림 2 (3) 에 서 중 첩 된 두 개의 루프 
인 덱 스 들은 합 체 될 수 있으며, 그림 2 (6) 는 합 체 된 루 
프 를 나타낸 것이다. 합 체 된 루 프 에서 중 첩 된 두 문장 


의 실행 순 서 는 바뀌어야 하며, 따라서, 40,*) 는 8 
(],*) 의 어떤 요 소 가 산 출 되기 전에 계 산 되어야 한다. 


태 041.1. 1 ]=1, 띠 
10041.1. 2 =1, 띄 
스 (060= , , . 
0 미 빈 0.07.100 
0041.11. 3 Ｌ=1, 페 
20,Ｌ0=. . . 
3 표 제 0041.1, 
1 85000414. 
(2) 


0041.11 1 1=104" 
(641, - 체 [0-1) 찌 ) = . . . 
21141, - 지 [(0-1)540) = . . . 
1 04000 
0) 


그림 2. 2 원 중첩 루 프 와 합체 


(3) 혼합 루 프 (50 ㅁ 0 10020) 


00411, 00408 그리고 00581114Ｌ 루 프 들 이 
혼 합 된 루프 구 조 로서, 그림 3 (3) 는 0051114Ｌ 과 
10041 루 프 가 중 첩 된 혼합 루 프 를 나타낸 것이다. 
이런 경우, 루프 합 체 는 혼합 루 프 의 2004ＬＬ 만 이 적 
용 되어질 수 있으며, 그림 3 (6) 는 이에 상 웅 하는 합 
체 된 루 프 를 나타낸 것이다. 


10041.1. 1 ]=1, 8 
10068 따 기스. 2 =1, 줘 
10041.1, 3 Ｌ=1, 지 
스 (081) = . , . 
3 표 세 10021.4 
2 40511. 
1 브 지 0041.14. 
(2) 


100688141. 1 1, 쥐 
00411. 2 1=1, 36? 
스 ([ 씨 , 쿄 Ｌ- 징 0-1) 쩌 1) = , . . 
2 25400 
1 40006641 
06) 


그림 3. 흔 합 루 프 와 합체 
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2.2 기존 병렬 스 케 즐 링 방법 
(1) 을 리 -60060411048 (558) 


86[7,12] 는 실행될 모든 반 복 들 이 전역 메 모 리 에 
놓 여 지 고, 프 로 세 서 가 106 하 면 , 중앙 작업 큐 로 부 터 
동기화 방 법 으로 루프 인 덱 스 를 증 가 하 며 하 나 의 반 
복 을 선 택 하 는 가장 단순한 스 케 즐 렁 방 법 이 다. 따라 
서 , 프 로 세 서 들이 각각 한 반 복 내 에 끝나기 때문에 
부 하 균 둥 에 관 해 서 는 최 적 의 동적 스 케 즐 랑 방 법 이 
다. 그러나 병렬 반복 수인 제 01602800 00600000 이 
발 생 하 며 , 전역 메 모 리 의 상호 배 타 적 인 접 근 이 빈번 
하여 오 버 혜 드 와 병 목 현 상이 발 생 된다. 


(2) 아 406 561【-50604140@8((685) 


(59[1] 는 전역 메 모 리 의 상호 배 타 적 인 접 근 의 빈 
번 함 을 줄이기 위해 106 프 로 세 서 에 게 반 복 의 그룹 
인 고 정 된 크기 즉 , 의 00 를 할 당 하여 실 행 함 으 
로써 동기화 오 버 혜 드 를 줄 이 려 고 하였다. 그러나 실 
행 시 간 에 조차 알려지지 않은 각 반 복 의 분포 때문에 
특히, 불규칙 루 프 에서 부 하 불 균 등 이 발 생 되며, 또한 
최 적 의 아 00 를 구 하 기 가 어렵다. 


(3) (3041060 561[- 을 아 160141108 (688) 


0655[2] 는 전역 메 모 리 에 있는 실행될 반 복 을 146 
프 로 세 서 예 게 할 당 할 때, 처 음 에는 큰 [를 할당 
함으로써 스 케 즐 렁 오 버 헤 드 를 감 소 시키고, 실 행 시 
간 동안 아 40< 의 크 기 를 계속 감 소 시 킴 으로써 부하 
균 등 을 달 성 하려고 하였다. 655 에 서 각 프 로 세 서 들 
이 실행할 반 복 들 에 대한 04140 의 크 기 는 다 옴 과 같 
이 결 정 된 다 . 즉 , 전역 메 모 리 의 서로 독립된 반 복 들 
/=1.23.4...& 에 대해 


2622.01 1= 가 - 치 


지 = [글] (01) 


그러나 전역 메 모 리 로부터 반 복 적 으로 0110[ 를 
계 산 하고 할 당 하기 위해, 프 로 세 서 들이 상호 배타적 
인 빈번한 메 모 리 의 접 근 으로 많은 동기화 오 버 헤드 
가 발 생 된다. 또한 초 기 에 너무 큰 반 복 의 00( 가 
프 로 세 서 에게 할 당 ( 쓸 ) 되 기 때문에 반 복 들의 실행 


시 간 이 선 형 적 으 로 감 소 하거나, 처음 몇몇 반 복 들의 
실 행 시 간 이 큰 경우 부 하 불 균 등 이 발 생 되어 최 적 의 
실행 시 간 내에 끝나지 않는다. 


(4) 『80010008 


800007208[8.9] 은 반 복 들의 041 가 『 개 의 프로 
세 서 로 스 케 즐 링 된 후, 전역 메 모 리 에 충분한 반복 
들의 수 즉 , 28( 를 남겨 부 하 균 등 을 달 성 하 는 확률 
을 높 이 려고 하였다. *00[02708 에 서는 전역 머 모리 
에 있는 반 복 들 에 대해 『 개 의 동일한 크 기 인 0040 
들의 6800 로 스 케 즐 링 된다. 따라서, 각 68(01 는 전 
역 메 모 리 에 남 이 있는 반 복 들 의 고 정 된 비 율 이 된 
다. 『30[0008 에 서 각 아 40Ｌ 는 다 음 과 같이 결정된 
다. 전역 메 모 리 에 있는 서로 독립된 반 복 들 /.= 
1.23.4.…..& 에 대해 


= 2522.71 = 2- 7 


시 =[ 소 61 82 (2) 


830[00108 은 초기 01 크 기 를 줄이기 위해서 
의 [ 쓸 ] 을 [ 그 ] 으 로 3 초기 [ 글 19 
055 의 [ 움 ] 을 [ 긍 늄 ] 으 로 하였으나, 초기 [ 긍 능 ] 의 
크 기 인 개의 0040 중 공개 야 40 내 반 복 들의 실 
행 시 간이 클 때 , 부 하 불 균 등 이 발 생 되어 최 적 의 종료 
시 간 을 달 성 하지 못한다. 
(5) 스 10015 5 아 60418 
스 101[7 50604110813] 은 반 복 에 대해 정 적 으로 
[ 씀 ] 인 0040( 를 각 프 로 세 서 에게 할 당 하고, 프 로 세 
서 들은 각각 독 립 적 으로 스 케 즐 링 을 수 행 함 으로써 
동 기 화 에 대한 요 구 를 최소화 하 려 고 하였다. 또한, 
프 로 세 서 가 106 하 면 , 가장 많이 남 아 있는 프로세서 
를 찾 은 후, [ 끔 ] 의 반 복 을 옮겨 계속 실 행 함으로써 
부 하 균 등 을 달 성 하려고 하였다. 그러나 &868 패 0 
읍 아 6004110@ 은 초 기 에 자료 국 부 성 을 고 려 하 지 않고 
각 프 로 세 서 에게 정 적 으로 할 당 하였다. 따라서, 불 규 
칙 적인 경 우 에 각 000 때 내 반 복 들 의 분 포 가 상 이 하 
여 다른 프 로 세 서 에 접 근 하는 빈 도 가 많 아 지고, 접근 
된 프 로 세 서 로부터 작은 반 복 들 ([ 을 ]) 만을 취하여 
실 행 하기 때문에 과도한 오 버 해 드 가 발 생 되어 전체 
성 능 에 나쁜 영 향 을 준다. 
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3. 새로운 병렬 루프 스 케 즐 링 알고리즘 


3.1. 이론 설명 


본 논 문 에서는 서로 독립된 반 복 들 에 대한 자료 
국 부 성 과 프로세서 동 족 성 을 고 려 하 여 반 복 들 의 실 
행 시 간이 서로 상이한 경 우 에도 효과적으로 스 케 즐 
링 을 할 수 있는 새로운 병렬 루프 스 케 즐 링 알 고 리 
즘 을 제 안 한 다. 서로 다른 독립된 반 복 들은 컴파일 
시 간 뿐만 아니라 실 행 시 간 에 조차 분 포 를 알 수 없기 
때문에 부 하 불 균 등 이 발 생 된다. 또한, 실행될 반 복 들 
의 아 00[ 를 계 산 하 여 프 로 세 서 에게 할 당 하 기 위해 
전역 메 모 리 의 상호 배 타 적 인 과도한 접 근 으로 스케 
즐 링 오 버 헤드 및 메모리 경 쟁 이 유 발 된다. 이러한 
부 하 불 균 등과 과도한 스 케 즐 링 오 버 헤 드는 결과적 
으로 스 케 즐 링 성 능 에 나쁜 영 향 을 주 계 된 다. 따라 
서 , 부 하 균 등 을 달 성 하고 최 소 의 메모리 경 쟁 을 통한 
스 케 즐 링 오 버 헤 드 를 최 소 화 함으로써 최 적 의 스케 
즐 링 올 달 성 하려는 데 목 적 이 있다. 기 존 의 대부분 스 
케 즐 링 알 고 리 즘 들은 씨 개의 반 복 들 즉 , [1,.2.3.4...…, 
2~-3,20-2.20-1, /] 에 대해 서로 독립된 임의 변 수 로 
취 급 하 여 전역 메 모 리 로부터 프 로 세 서 가 1046 할 때 
마다 아 4 크 기 를 계 산 하여 프 로 세 서 에게 할 당 한 
다. 예 를 들면, 689[21 는 [ 음 ], 80000000 띠 은 [ 능 ] 
야 40[ 를 전역 메 모 리 가 공 백 일 때 까 지 반 복 적 으로 
계 산 하고 106 프 로 세 서 에게 할 당 한다. 이는 빈번한 
메 모 리 의 상호 배 타 적 인 접 근 과 반 복 된 의 계 
산 및 할 당 으로 000 의 수 에 비 례 하는 스 케 즐 링 오 
버 헤 드 를 유 발 한다. 48801 500604000131 은 씀 의 
아 00( 를 정 적 으로 프 로 세 서 에게 할 당 하 여 메 모 리 의 
상호 배 타 적 인 접근 횟 수 를 줄여 스 케 즐 링 오 버 혜 드 
를 감 소 시 키 려 고 하였다. 그러나 자료 국 부 성 을 충분 
히 고 려 하 지 않고 반 복 에 대한 040 를 계 산 하고 할 
당하기 때문에 각 아 40 내 반 복 들 의 실 행 시 간 이 서 
로 상 이 하여 다른 프 로 세 서 의 메 모 리 에 접 근 하 는 횟 
수가 많 아 진 다. 또한, 접 근 한 메 모 리 로부터 적은 반복 
만을 취 함 으로써 전체적으로 스 케 즐 링 오 버 혜 드 롤 
중 가 시켜 효율적인 스 케 즐 링 을 달 성 할 수 없다. 따라 
서 , 최 적 의 스 케 즐 링 을 달 성 하 기 위해서는 각 반 복 들 
에 대한 자료 국 부 성 을 충분히 고 려 하여 분 해 함 으로 
써 분 해 된 각 그 룹 간에 최 소 의 상이한 실 행 시 간 을 
유 지 하도록 해 야 한 다. 또한, 분 해 된 그 룹 들을 프 로 세 


서 동 족 성 을 고 려 하여 프 로 세 서 들의 지역 메 모 리 에 
정 적 으로 할 당 하 고, 각 프 로 세 서 는 자 신 의 그 룹 으 로 
부터 연 속 된 반 복 들의 범 위 에 대해서 단일 루프 인 덱 
스로 독 립 적 인 실 행 을 함으로써 전체적으로 최 소 의 
스 케 즐 링 오 버 혜 드 와 부 하 균 등 을 달 성 할 수 있다. 


3.2. 새로운 스 케 즐 링 알고리즘 


본 논 문 에서는 지 개의 서로 독립된 반복 [1.2.3.4., 
22-3,20-2,20-1, ^0] 에 대해, 자료 국 부 성 을 고 려 하여 
컴파일 시 간 에 정 적 으로 분해 작 업 을 수 행 하 고, 프로 
세 서 에게 할 당 함 으로써 동기화 오 버 혜 드 를 줄인다. 
분해 작 업 의 기본 개 념 은 주어진 반 복 들을 제어 키 에 
의해 여러 개의 그 룹 으로 분 해 하 고, 분 해 된 각 그룹 
들을 프 로 세 서 에 의해 독 립 적 으로 스 케 즐 링 을 수행 
하게 하기 위한 것이다. 이때, 제어 키 는 프 로 세 서 의 
수가 된다. 예 를 들면, 프 로 세 서 가 4 인 다 중 프로세서 
시 스 템 인 경 우 를 고려 해보자. 첫째, 제어 키 는 프로 
세 서 의 수가 되기 때문에 4 가 된다. 따라서, 첫 번째 
반 복 으로부터 제어 키 만큼 떨어진 반 복 들을 하 나 의 
그 룹 으 로 묶 으 면 , 그럼 4 와 같이 4 개 의 그 룹 으 로 분 
해 된다. 

0.23.4..., 24-3,20-2.20-1,24] 에 대해 

와 ㅋ [1,1+ 2 1+ 200 . . . ,2- 3] 

=> 저 1], 지 5],219], 저 131. .. 

62=[2.0+“%“62+20%0....,42- 이 ] 

=> 저 2], 지 6], 저 10],. 지 14]... 

@=[3.3+3+ ㅜ 20%8....,2-3] 

=> 저 31,2[7], 저 브 ], 저 151... 

= 14,.4+#%4+ ㅜ 20. 41 


=> 저 4]1, 지 8),22112]1, 지 16]... 
(: 제어 키 (0006 이 869), 주: 요 소 ( 띠 60600 


그림 4. 제 어 키 에 의한 정적 분해 
따라서, , 번째 그 룹 의 [번째 요 소 를 ※ 라 하면, 그 
순서 위 치 는 다 음 과 같다. 
조 [(2-1)*0@6+ ㅇ 6] (3) 


분 해 된 각 그 룹 들은 씨 개의 서로 독립된 반 복 들 에 
대해서 자료 국 부 성 을 고 려 했기 때문에 각 그 룹 간에 
반 복 들의 실 행 시 간 에 따른 분포 차 를 최 소 로 분 해 하 
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였다. 둘째, 분 해 된 그 룹 들 은 각 프 로 세 서 의 지역 메 
모 리 로 할 당 되고, 프 로 세 서 들은 각각 자 신 의 지역 메 
모 리 로부터 독 립 적 으로 반 복 들 에 대해 스 케 즐 링 올 
수 행 한다. 따라서, 프 로 세 서 들 이 자 신 의 지역 메모리 
로부터 반 복 들을 독 립 적 으로 수 행 하기 때문에 병목 
현 상 은 발 생 되 지 않는다. 셋째, 만일 프로세서 2, 의 
지역 메 모 리 가 공 백 이 되어 106 하 면 , 프로세서 2, 는 
나머지 2-1 개 의 프로세서 지역 메 모 리 를 분 석 하고, 
반 복 들이 가장 많이 남아 있는 프 로 세 서 의 지역 메모 
리의 반 복 들 에 대해 다시 분해 작 업 올 수 행 한 다. 이 
때, 분 해 될 반 복 들은 원래 수 행 하고 있던 프 로 세 서 와 
106 프로세서 ^, 즉 , 2 개 의 프 로 세 서 에 의해 실 행 되 
므로 제어 키 는 2 가 된다. 따라서, 반 복 들 은 두 개의 
그 룹 으로 분 해 되고, 분 해 된 그 룹 은 각 프 로 세 서 에 의 
해 독 립 적 으로 스 케 즐 링 이 반복 수 행 된 다. 예 를 들 
면 , 프로세서 2, 이 106 하 고, 2, 의 지역 메 모 리 가 가 
장 많은 반 복 들 올 가지고 있다고 가 정 하 면 , 프로세서 
2 의 지역 메 모 리 에 남 아 있는 반 복 들 에 대한 분해 
과 정 은 그림 5 와 같다. 즉 , 에 남 아 있 는 반 복 들 
[24.28, 32. 36..., 4-4, ^/] 에 대해 


88 [1,1+ % ㅇ 1 + 26, . …  , 2/-4] 


=> 저 1]1, 저 3], 저 5],207]... 
66= [2,3 ㅜ &%,2+ ㅜ 20. .…, 씨 


=> 저 2], 저 4], 저 6], 저 81... 
그림 5. 지역 메모리 반 복 들 의 재 분 해 


분 해 된 각 각 의 그 룹 에 대해서 프로세서 2, 은 (을 
24 은 (> 를 독 립 적 으로 스 케 즐 링 을 수 행 한다. 이런 
분해 작 업 은 인 접 된 반 복 들을 서로 다른 그 룹 으로 
분 리 함으로써 각 그 룹 간의 실 행 시 간 에 따른 분 포 를 
균 일 하게 유 지 하 기 위한 것이다. 각 그 룹 간의 균 일 한 
분 포 는 다른 프 로 세 서 의 지역 메모리 접근 횟 수 를 
줄일 수 있으며, 따라서 동기화 오 버 헤 드 와 부 하 균등 
올 달 성 하 여 최 적 의 스 케 즐 링 올 수 행 할 수 있다. 그 
과 정 은 다 음 과 같다, 


1. 1000 101081123000(34, (6) 
107 1 ~ 1 10 0 
0 ~ = 
107) ~ 1 (0 4 67 (< // 씨 반 복 들 을 (개의 
그 룹 으 로 분 해 // 


(가 ~ ( 과 니 호) 
600 
(0 < (061 
600 
2. 101 ＊… 1 00 0 // 지 역 메 모 리 로 그룹 반 복 들을 
할 당 // 
과 2} 
600 
3. 1002 
101 ㅠ 1 [6 0《// 각 프 로 세 서 에 의해 독 립 적 인 
스 케 즐 렁 // 
16 (7) = 60005) 
10440= 1140 1008 108060 100281_046146 
1 (1210= ㅋ 70411) 15068; 
(0 < 2 // 제 어 키 에 2 를 대 입 // 
100 1 <- 1 10 61 
(67 8 
100) 1 10 제 60 06 // 가 장 많이 
남은 프 로 세 서 내 반 복 들의 
재 분 해 // 
다 (니체) 
600 
600 
까 ㄴ (67 //1006 프 로 세 서 에 게 로 재 분 해 된 
반복 그룹 적 재 // 
600 
1017676 


그림 6. 새로운 병 렬 루프 스 케 즐 링 알고리즘 


4. 성능 평가 


본 논 문 에서 제 안 된 스 케 즐 링 알 고 리 즘 의 성 능 평 
가를 위해 4 개 의 밴 치 마크 프 로 그 램 을 선 택 하였다. 
선택된 벤 치 마 크 프 로 그 램 들은 성 능 평 가의 공정성 
을 기 하 기 위해서 기 존 의 스 케 즐 링 알 고 리 즘 들 에서 
이미 성 능 평 가 된 벤 치 마 크 프 로 그 램 들을 다 양 하게 
선 택 하 였다. 즉 , 그림 7 은 치 100× )[410401108000 
버 08187 으 로써 『3060 ㅁ 0818] 에 서 평 가 되었고, 그럼 
8 과 그럼 9 는 4010104(-000014000 ”70812 으 로서 
8060008 과 ^ ㅅ 1801[/[3] 에 서 평 가 된 프 로 그 램 들이 
다. 그림 10 은 루프 6005 부 분 의 조 건 문 에 따라 각 
반 복 들의 실 행 시 간 에 영 향 올 주는 벤 치 마 크 프로그 
램 으 로 6569[2] 에 서 평 가 된 프 로 그 램 이 다. 선택된 벤 
치 마 크 프 로 그 램 들은 규칙 루 프 와 불규칙 루 프 를 모 
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두 포 함 시켰기 때문에 객관적인 성능 평 가 의 기 준 이 
될 수 있다. 선택된 벤 치 마 크 프 로 그 램 들 의 성능 평 
가는 128 개 의 186 ㅅ 10018 0002 으 로 구성된 (273? 
738-900 (1.1288-128 인 44[[? 머 신 에 서 수 행 된다. 
이 시 스 템 은 자체 /() 16166 를 가질 수 있도록 설계 
되어 독자적인 형 태 로 사 용 이 가 능 하 며 , 프로세서 성 
능 은 450 41112/『 이 고, 프 로 세 서 당 128 487[68 의 
지역 메 모 리 를 가지고 있는 논 리 적 으로 공 유 메모리 
시 스 템 이다. 

본 논 문 에서는 성능 평 가 의 다 양 성 과 공 정 성 올 기 
하기 위해서 선택된 벤 치 마 크 프 로 그 램 들을 3 4, 8, 
16 개 의 프로세서 상에서 실 험 을 수 행 하 며 , 이때 비교 
평 가 될 각 알 고 리 즘 에 따른 벤 치 마 크 프 로 그 램 들의 
총 실 행 시 간 과 실 행 율 을 비교 평 가 한다. 성능 평 가 를 
위해 선택된 알 고 리 즘 들은 기존 스 케 즐 링 알고리즘 
들 중에서 비교적 성 능 이 우수한 것으로 평 가 된 
685, 30600008, 스 01011* 와 제 안 된 병 렬 루프 스 케 즐 
렁 알 고 리 즘 과 의 성 능 을 비교 평 가 한 다. 


4.1. 벤 치 마 크 프로그램 


본 논 문 의 실 험 에서 사 용 된 4 개 의 벤 치 마 크 프로 
그 램 은 그림 7 부 터 그림 10 까 지 나 타 나 있다. 선택된 
벤 치 마 크 프 로 그 램 들은 각 반 복 들 에 따른 다양한 실 
행 시 간 을 가진 벤 치 마 크 프 로 그 램 들 로 써 성 능 평가 
의 공 정 성 과 다 양 성 올 제 공 할 수 있다. 


100411. 10 1! = 1, 찌 94 
1 = [1141 
] = -06[(0'-1)/ 찌 | 
10091. 20 = 1 쥐 
000)=500.1)+&2060*20]0) 
20 840058141 
10 400414 


그림 7. 482101× 뻐 비 160116801017 『0 ㅇ 97817 


위 프 로 그 램 은 4*8 개 의 각 병렬 반 복 들이 내 부 의 
순차 루 프 인 005141141[. 20 = 1, 뛰 를 실 행 하 며 , 따 
라서 각 병렬 반 복 들은 (4(2) 의 동일한 실 행 시 간 올 
가진다. 실 험 에서 위 프로그램 크 기 는 지 =350 일 때, 
실 행 시 간 과 실 행 율 에 대한 성 능 올 비교 평 가 한다. 


1041.11. 10 1=1, 찌 * 띠 
10(06 따 길 스 1. 20 1, 피시 
스 (1)=&(0)+※*83(0)*(6() 
20 요 제 126 다 0141 
10 표 테 1201.14 


그림 8. ^&01)010『-601 ㅁ 0\01411011 『『09「8171 


1001.11. 10 1=4* 띠 , 1,-1 
10(06 다 141, 20 1, 찌 * 띠 
스 (1)= 스 (1)+%*3()*((《-1) 
20 표 페 1)6} 카 121. 
10 표 테 [)0041.1. 


그림 9. &01010『-0600\01411011 0『7091789172 


위 프 로 그 램 들은 찌 * 씨 개의 각 병렬 반 복 들이 내부 
의 순차 루 프 인 006114Ｌ 20 1 4* 씨 을 실 행 한 
다. 따라서, 그림 8 의 각 병렬 반 복 들은 (077^- 7) 에 
비 례 하는 실 행 시 간 을 가지며, 그림 9 의 각 병렬 반복 
들은 (002"- 2) 에 반 비 례 하는 서로 다른 실 행 시 간 을 
가진다. 실 험 에 서 위 프로그램 크 기 는 띠 =350 일 때, 
실 행 시 간 과 실 행 율 에 대한 성 능 을 비교 평 가 한다. 


100411. 10 1=1, 지 
때 [ 6 060 1350} ] 
10068141. 20 =1, 허 
{10} 
20 쩌 128 따 긴 2Ｌ 
10 튜 지 10014 


그림 10. 불규칙 루프 


위 프 로 그 램 은 개의 각 병렬 반 복 들이 (의 조건 
에 따라 350 개 의 직선 코 드 를 실 행 한 후, 내 부 의 순차 
루 프 인 00660801[4Ｌ 20 (=1, (을 실 행 한 다. 따라서, 
각 각 의 병렬 반 복 들은 (의 조 건 에 따라 서로 다른 
실 행 시 간 을 가진다. 실 험 에서 위 프로그램 크 기 는 
띠 =350 일 때, 실 행 시 간 과 실 행 율 에 대한 성 능 을 비교 
평 가 한다. 또한, 각 병렬 반 복 들 에 대해 앞 의 몇몇 
반 복 들의 분 포 가 클 때 와 뒤 의 몇몇 반 복 들의 분 포 가 
클 때 의 실 행 시 간 을 비교 평 가 하거 위해, (: 의 조 건 을 
1=90 와 1>310 인 두 가지 경 우 의 성 능 에 대한 평가 
를 수 행 한다. 
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4.2. 성능 분석 비교 


2006655015 


그림 13. ^081 이 0『- ㅇ 0 ㅇ 00\014110102 의 성 능 평가 


그림 11. 018\1% 비 414011081101 의 성 능 평가 표 3. ^209] 이 0-606106014110102 의 실 행 시간 


표 1. 1/0811× 00411011681100 의 싫 행 시간 


그 림 14. 불규칙 루프 |=90 의 성 능 평가 
그림 12. 401 이 0『-0010\014110101 의 성 능 평 가 


표 4. 불규칙 루프 | ㄴ 90 일 때, 실 행 시간 


표 2. 401010-600\01411001 의 실 행 시간 


51681 50966| 10 
25848 25031] 10 
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렬 055 

ㅁ 8600008 
모 스 8 피 5 
되 러 0\ 


06659078 
그림 15. 불규칙 루프 |=310 의 성 능 평가 


루프 |=310 의 실 행 시간 
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표 5. 불규칙 


“80160008 
실행 | 실 행 
시간 | 을 
4 | 5533] 869 | 55530|9870| 5077|9770| 52551100| 
따이 3 고 비 로 비 조 리 띄 
16 | 14019| 9770 | 1401819701 시 이 오 비 지에 
{301 )414100168007 의 실험 결 과 에서 스 1670119 
와 제안한 알 고 리 즘 은 처음 정 적 으로 할 당 된 000 
의 분 포 가 동 일 하여 전역 메 모 의 접 근 이 발 생 되 지 
않아 좋은 수 행 결 과 를 보이고 있다. 그러나 6658 와 
80[0008 은 수 행 될 반 복 들 의 아 40( 를 계 산 하 기 위 
해 전역 메 모 리 의 빈번한 접 근 으로 많은 오 버 헤 드가 
발 생 되 어 2=2 일 때, 각각 11% 와 1296, 2=4 일 때, 209 
와 129, ㅁ =8 일 때, 19%, 그리고 [2=16 일 때, 약 9% 의 
성 능 감 소 를 보이고 있다. ^0101 마 -00010140071 의 실 
험 결 과 에서 (785 는 처음 할 당 된 04 의 분 포 가 너 
무 커 부 하 불 균 둥이 발 생 되며, 『*3060 ㅁ 108 은 각 반복 
들 에 대해 부 하 균 등 은 달 성 되 나 전역 메 모 리 의 접근 
에 따른 오 버 혜 드가 발 생 되고, 4162 ㅁ 01( 는 처음 정적 
으로 할 당 된 014 패 의 부 하 불 균 등 으로 인해 다른 프 
로 세 서 의 메 모 리 에 접 근 하는 횟 수 가 많아 과도한 오 
버 혜 드가 발 생 된 다. 따 라 서 , 제 안된 알 고 리 즘 이 6658 
와 130160 ㅁ 08, 10116 보다 각각 11%, 3% 그리고 
4% 의 성능 향 상 을 보였다. 401010[-000101411002 의 
실 험 결 과 에서 실 험 평 가 된 알고리즘 모두 비슷한 성 
능 을 나타내고 있다. 그러나 658, 『200[00 ㅁ 708, 쓰 020- 
17 는 제 안 된 알고리즘 보다 과도한 스 케 즐 링 오 버 헤 
드가 발 생 된다. 따라서, 제 안 된 알 고 리 즘 은 약 4~5% 


의 성능 향 상 을 보였다. 그림 14 인 불규칙 루 프 에서 
는 처음 각 프 로 세 서 에 게 할 당 된 반 복 의 분 포 차 이로 
인해 658 와 *8060 ㅁ 70@ 의 경 우 에 는 부 하 불 균 등 이 발 
생 되 며 , ^480016 의 경 우 에는 각 프 로 세 서 에 할 당 된 
반 복 들 이 부 하 불 균 등 이 발 생 되어 그에 따른 각 프로 

세 서 의 종 료 시 간 을 유 지 하기 위해 과도한 전역 메모 
리에 접 근 하게 된다. 따라서, 제 안 된 알 고 리 즘 은 655, 
3000008 그리고 ^411201[* 에 비해 각각 약 26%6, 7% 
그리고 4% 의 성능 향 상 을 보였다. 그림 15 인 불규칙 
루 프 에서는 실험 평 가 된 알고리즘 모두 비슷한 성능 
을 보였다. 그러나 제 안 된 알 고 리 즘 은 각 프 로 세 서 들 
에게 할 당 된 반 복 들 그 룹 의 분포 차가 비 슷 하 여 다른 
알 고 리 즘 보다 전역 메 모 리 의 접근 횟 수 가 적게 발생 
되어 약 2~39% 의 성능 향 상 올 보였다. 분 석 된 실험 
결 과 에 서 제 안 된 알고 즘 은 다른 알 고 리 즘 에 비해 
최 소 의 오 버 헤 드 로 부 하 균 등 올 달 성 할 수 있었으며, 
각 프 로 세 서 는 많아야 1 회 의 전역 메모리 접 근 으 로 
모든 반 복 들의 수 행 을 완 료 함 으로써 다른 알고리즘 
들 보 다 약 4~18% 의 성능 향 상 을 보였다. 특히, 제안 
된 알 고 리 즘 은 각 반 복 들 의 분 포 가 선 형 적 으 로 감소 
하거나 처음 몇몇 반 복 들의 분 포 가 클 때, 685 나 
30[0008 보 다 좋은 성능 향 상 을 보 였 으 며 , 불규칙적 
인 루 프 에서 4180160 보 다 더 좋은 성 능 향 상 을 보였다. 


5. 결론 및 향후 과제 


최 적 의 스 케 즐 링 을 달 성 하기 위해서는 각 프 로 세 
서 들이 반 복 들 을 수 행 하기 위해 전역 메 모 리 의 접근 
횟 수 를 줄여 오 버 헤 드 를 최 소 화 하고, 각 프 로 세 서 들 
이 반 복 들을 실행할 때, 각각 동일한 실 행 시 간 을 버 
지 하 여 부 하 균 등 을 달 성 해야 한다. 따라서, 이런 
적을 달 성 하기 위해서는 오 버 헤 드 를 최 소 화 하는 정 
적 스 케 즐 링 과 부 하 균 등 을 달 성 할 수 있는 동적 스케 
즐 렁 이 모두 고 려 된 스 케 즐 링 알 고 리 즘 이 되어야 한 
다. 본 논 문 에서는 동적 및 정적 스 케 즐 링 올 모두 고 
려 한 최 적 의 스 케 즐 링 을 달 성 하기 위해 지 개의 서로 


독립된 반 복 들 에 대한 자료 국 부 성 올 고 려 함으로써 
실 행 시 간 에 따른 분 포 가 거의 같은 반 복 들의 그 룹 으 


로 재 구 성 하였다. 또한, 재 구 성 된 그 룹 들은 프로세서 
동 족 성 을 고 려 하 여 정 적 으로 각 프 로 세 서 의 지역 메 
모 리 에 할 당 하고, 할 당 된 각 각 의 그 룹 들을 독 립 적 으 
로 스 케 즐 링 을 수 행 함 으로써 동기화 오 버 헤 드 를 
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이고 부 하 불 균 등 을 달 성 하 는 새로운 병렬 루프 스케 
즐 링 알 고 리 즘 을 제 안 하였다. 제 안 된 스 케 즐 링 알고 
리 즘 은 실험 결과 각 프 로 세 서 마 다 최대 1 회 의 전역 
메모리 접 근 으로 부 하 균 등 을 유지할 수 있었으며, 동 
기화 오 버 헤드 및 병 목 현 상 을 최 소 화 함으로써 전체 
적 으 로 665 보 다 ㅁ =2 일 때, 1333 2=4 일 때, 1996 ㅁ 2=8 
일 때, 319 ㅁ =16 일 때, 22% 그리고 『*30[0 ㅁ 708 보다 
=2 일 때, 4% 『=4 일 때, 596 2=8 일 때, 88% ㅁ =16 일 
때, 8% 의 성능 향 상 올 보 였 으 며 , 48001 보다는 2=2 
일 때, 296 ㅁ =4 일 때, 3843 『?=8 일 때, 592 『=16 일 때, 
7% 의 향상된 스 케 즐 링 을 수 행 할 수 있었다. 또한, 제 
안된 스 케 즐 링 알 고 리 즘 은 기 존 의 스 케 즐 링 알 고 리 
즘 과 비교 평 가 한 결과 최소 종료 시간 내에 모든 병렬 
루 프 들을 수 행 함 으로써 성 능 의 우 수 함 을 입 증 하 였 
다. 향후 과 제 로는 본 논 문 에서 제 안 된 스 케 즐 링 알 
고 리 즘 을 토대로 하여 각 서로 다른 프 로 세 서 의 성능 
및 반 복 들 의 전송 시간 등 올 반 영 함으로써 공유 메모 
리 시 스 템 에서뿐만 아니라 분산 메모리 시 스 템 에서 
도 최 적 의 스 케 즐 링 을 달 성 할 수 있는 알 고 리 즘 에 
대한 연 구 가 필 요 하 다. 
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